常用网站介绍 |
您所在的位置:网站首页 › sound 和voice 和noice区别 › 常用网站介绍 |
蛋白数据库几乎是生物领域研究人员不可或缺的工具之一,UniProt数据库作为资源最广、信息最丰富的蛋白数据库,是查询蛋白功能的首选。UniProt功能全面,小编将通过上下两期内容来详细介绍其使用方法。 进入官网(https://www.uniprot.org/),可以看到数据库页面分为上下两部分,上半部分为搜索框(图1),下半部分则是数据库和分析工具,也是本期主要介绍的内容。
一、UniProt数据库构成 目前,UniProt主要由以下子库构成: 1. UniProt Knowledgebase(UniProtKB) 该数据库由Swiss-Prot和TrEMBL两个数据库构成。Swiss-Prot数据库代表着高质量、人工注释的、非冗余的数据集,其注释数据的来源于文献研究或校验过(Reviewed)的分析结果。TrEMBL数据库,代表蛋白未经校验(Unreviewed),通过机器对序列进行自行翻译和注释。
2. Proteomes 该数据库收录已经完成全基因组测序的物种、序列翻译已有注释的蛋白质信息,信息相对全面详细。
3. UniRef 聚类序列隐藏冗余序列以缩减数据库大小,可加快搜索的速度。包含UniRef100、UniRef90以及UniRef50三个数据集。UniRef100数据集是将来自某一生物体的具有11个或更多残基的相同序列和子片段合并到单个UniRef条目中,显示具有代表性的蛋白质序列。UniRef90则是对具有11个或更多残基的UniRef100序列进行聚类构建的,每个聚类由与聚类的种子序列(即最长序列)至少具有90%序列一致性和80%重叠的序列组成。UniRef50是通过将UniRef90种子序列进行聚类而构建的,这些序列至少与集群中最长的序列具有50%序列一致性和80%的重叠。UniRef90和UniRef50分别缩减了大约58%和79%的数据库大小,提供了显着更快的序列相似性搜索。
4. UniParc 非常全面的非冗余数据库,包含了世界上大多数公开的蛋白质序列。 数据库关系如下: 通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存入UniParc的非冗余蛋白质序列数据库。UniParc再分别给UniProtKB,Proteomes,UniRef提供可靠的数据集。
二、辅助数据 提供数据支撑和不同索引方式,也可以在搜索框中直接选择。
三、分析工具 可进行BLAST、多序列比对,不同数据库ID查询和多肽搜索等。
四、UniProt数据 下载数据或技术文档,通过编程方式访问数据库和上传数据。
五、搜索界面 以“TP53”为例,输入搜索框后出现如下界面,可通过左边过滤选项面板进一步筛选需要的蛋白。
过滤选项面板 1、Status:用于筛选经校验或未经校验的蛋白。Reviewed:存储在Swiss-Prot数据库中经过验证的蛋白数据,Unreviewed:存储在TrEMBL数据库中没有经过验证的蛋白数据。 2、Popular organisms:用于筛选物种。 3、Taxonomy:可通过蛋白的名称、功能、细胞内定位、结构等蛋白特征筛选目的蛋白。 4、Group by:可通过选择蛋白特征、关键词、基因本体论(GO)或酶分类将搜索界面的目的蛋白分类进而筛选目的蛋白。 5、Proteins with:根据蛋白的序列特征以及是否有3D结构图像筛选目的蛋白。 6、Protein existence:证明目的蛋白存在的证据类型,包括蛋白质水平的实验证据、转录水平的实验证据、从同源性推断的蛋白质、预测的蛋白质和不确定的蛋白质。 7、Annotation score:即注释分数,分数越高,注释内容越全面可靠。 8、Sequence length:即序列长度,可根据目的蛋白的长度缩小筛选范围。
本期内容主要介绍了UniProt的主界面和搜索界面,下期将详细介绍目的蛋白界面的内容,感兴趣的小伙伴可以留意一下哦~ 汉恒专营工具病毒十余载,如有基因调控相关技术问题,欢迎随时咨询!
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |